15 research outputs found

    Percepcijska utemeljenost kepstranih mjera udaljenosti za primjene u obradi govora

    Get PDF
    Currently, one of the most widely used distance measures in speech and speaker recognition is the Euclidean distance between mel frequency cepstral coefļ¬cients (MFCC). MFCCs are based on ļ¬lter bank algorithm whose ļ¬lters are equally spaced on a perceptually motivated mel frequency scale. The value of mel cepstral vector, as well as the properties of the corresponding cepstral distance, are determined by several parameters used in mel cepstral analysis. The aim of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing mel ļ¬lter bank parameters it is found that ļ¬lter bank with 24 bands, 220 mels bandwidth and band overlap coefļ¬cient equal and higher than one gives optimal spectral distortion (SD) distance measures. For this kind of mel ļ¬lter bank, the difference between vowels can be recognised for full-length mel cepstral SD RMS measure higher than 0.4 - 0.5 dB. Further on, we will show that usage of truncated mel cepstral vector (12 coefļ¬cients) is justiļ¬ed for speech recognition, but may be arguable for speaker recognition. We also analysed the impact of aliasing in cepstral domain on cepstral distortion measures. The results showed high correlation of SD distances calculated from aperiodic and periodic mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and these were also analysed.Jedna od danas najčeŔće koriÅ”tenih mjera u automatskom prepoznavanju govora i govornika je mjera euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih koeļ¬cijenata zasniva se na ļ¬ltarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel ļ¬ltarskog sloga utvrdili smo da ļ¬ltar sa 24 pojasa, Å”irine 220 mel-a i faktorom preklapanja ļ¬ltra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel ļ¬ltarski slog granica čujnosti razlike između glasova je 0.4-0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je koriÅ”tenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeļ¬cijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj preklapanja spektara u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj preklapanja spektara generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj preklapanja spektara prisutan, te su one posebno analizirane

    Gaussian Mixture Model-based Quantization of Line Spectral Frequencies for Adaptive Multirate Speech Codec

    Get PDF
    In this paper, we investigate the use of a Gaussian MixtureModel (GMM)-based quantizer for quantization of the Line Spectral Frequencies (LSFs) in the Adaptive Multi-Rate (AMR) speech codec. We estimate the parametric GMM model of the probability density function (pdf) for the prediction error (residual) of mean-removed LSF parameters that are used in the AMR codec for speech spectral envelope representation. The studied GMM-based quantizer is based on transform coding using Karhunen-Loeve transform (KLT) and transform domain scalar quantizers (SQ) individually designed for each Gaussian mixture. We have investigated the applicability of such a quantization scheme in the existing AMR codec by solely replacing the AMR LSF quantization algorithm segment. The main novelty in this paper lies in applying and adapting the entropy constrained (EC) coding for fixed-rate scalar quantization of transformed residuals thereby allowing for better adaptation to the local statistics of the source. We study and evaluate the compression efficiency, computational complexity and memory requirements of the proposed algorithm. Experimental results show that the GMM-based EC quantizer provides better rate/distortion performance than the quantization schemes used in the referent AMR codec by saving up to 7.32 bits/frame at much lower rate-independent computational complexity and memory requirements

    Razvoj akustičkog modela hrvatskog jezika pomoću alata HTK

    Get PDF
    Paper presents development of the acoustic model for Croatian language for automatic speech recognition (ASR). Continuous speech recognition is performed by means of the Hidden Markov Models (HMM) implemented in the HMM Toolkit (HTK). In order to adjust the HTK to the native language a novel algorithm for Croatian language transcription (CLT) has been developed. It is based on phonetic assimilation rules that are applied within uttered words. Phonetic questions for state tying of different triphone models have also been developed. The automated system for training and evaluation of acoustic models has been developed and integrated with the new graphical user interface (GUI). Targeted applications of this ASR system are stress inoculation training (SIT) and virtual reality exposure therapy (VRET). Adaptability of the model to a closed set of speakers is important for such applications and this paper investigates the applicability of the HTK tool for typical scenarios. Robustness of the tool to a new language was tested in matched conditions by a parallel training of an English model that was used as a baseline. Ten native Croatian speakers participated in experiments. Encouraging results were achieved and reported with the developed model for Croatian language.Rad opisuje razvoj akustičkog modela hrvatskog jezika za potrebe sustava za automatsko prepoznavanje govora. Prepoznavanje prirodnog spojenog izgovora ostvaruje se koriÅ”tenjem skrivenih Markovljevih modela (HMM) u okviru alata HTK. U svrhu prilagodbe ovog alata na hrvatski jezik razvijen je novi algoritam za automatsku fonetsku transkripciju hrvatskih riječi. Zasniva se na načelu fonetske asimilacije unutar izgovorenih riječi. Razvijen je i skup fonetskih pitanja koji se koristi za klasifikaciju prilikom udruživanja trifonskih modela sličnih glasova. Razvijena je automatizirana aplikacija za gradnju i evaluaciju akustičkih modela, integrirana s novo razvijenim grafičkim sučeljem. Primjene ovog sustava za prepoznavanje su trening s doziranim izlaganjem stresu (SIT) i terapija izlaganjem primjenom virtualne stvarnosti (VRET). Prilagodljivost akustičkog modela na zatvoren skup govornika vrlo je važna za takve primjene, pa se u radu istražuje primjenjivost alata HTK u tipičnim scenarijima. Robusnost alata na promjenu jezika istražuje se uparenim treniranjem i evaluacijom ekvivalentnog modela engleskog jezika u jednakim uvjetima. U eksperimentima je sudjelovalo deset izvornih hrvatskih govornika. Ostvareni rezultati za hrvatski jezik prikazani u radu pokazuju zadovoljavajuća svojstva razvijenog akustičkog modela hrvatskog jezika

    Elektronika u riječi i slici - Digitalna elektronika

    Get PDF

    Smjernice za verifikaciju alokacije ECTS bodova

    No full text
    Priručnik je izrađen u sklopu projekta ā€œPrimjena Hrvatskog kvalifikacijskog okvira za sveučiliÅ”ne studijske programe u području elektrotehnike ā€“ HKO-ELEā€. U ovom dokumentu opisane su izrađene Smjernice za verifikaciju alokacije ECTS bodova, a njihova primjena je ilustrirana na primjeru uvođenja dva nova sveučiliÅ”na preddiplomska studijska programa: Elektrotehnika i informacijska tehnologija i Računarstvo koji su dio novih preddiplomskih i diplomskih studijskih programa FER-3. Ti se studijski programi uvode počevÅ”i od ak. god. 2018./2019. za preddiplomsku razinu, odnosno od ak. god. 2021./2022. za diplomsku razinu, dakle upravo za vrijeme trajanja projekta HKO-ELE. Izrada i tiskanje ovih smjernica, te izrada pripadajućeg programskog rjeÅ”enja koje će također biti prikazano u ovoj publikaciji financirani su iz ovog projekta u sklopu navedene aktivnosti ā€žUnapređivanje postupka osiguranja kvalitete visokog obrazovanjaā€œ

    Smjernice za verifikaciju alokacije ECTS bodova

    No full text
    Priručnik je izrađen u sklopu projekta ā€œPrimjena Hrvatskog kvalifikacijskog okvira za sveučiliÅ”ne studijske programe u području elektrotehnike ā€“ HKO-ELEā€. U ovom dokumentu opisane su izrađene Smjernice za verifikaciju alokacije ECTS bodova, a njihova primjena je ilustrirana na primjeru uvođenja dva nova sveučiliÅ”na preddiplomska studijska programa: Elektrotehnika i informacijska tehnologija i Računarstvo koji su dio novih preddiplomskih i diplomskih studijskih programa FER-3. Ti se studijski programi uvode počevÅ”i od ak. god. 2018./2019. za preddiplomsku razinu, odnosno od ak. god. 2021./2022. za diplomsku razinu, dakle upravo za vrijeme trajanja projekta HKO-ELE. Izrada i tiskanje ovih smjernica, te izrada pripadajućeg programskog rjeÅ”enja koje će također biti prikazano u ovoj publikaciji financirani su iz ovog projekta u sklopu navedene aktivnosti ā€žUnapređivanje postupka osiguranja kvalitete visokog obrazovanjaā€œ

    25 godina Hrvatskog vojnog učiliÅ”ta "Dr. Franjo Tuđman"

    Get PDF
    Hrvatsko vojno učiliÅ”te "Dr. Franjo Tuđman" obilježilo je svoju 25. obljetnicu održavanjem Okrugloga stola "HVU - od Domovinskog rata do sveučiliÅ”ne zajednice". Skup je raspravom različitih sudionika omogućio sveobuhvatan prikaz uloge i značaja vojne izobrazbe od njezinih začetaka, trenutnog stanja te daljnje transformacije kao samostalnog sveučiliÅ”ta ili dijela sveučiliÅ”ne zajednice. Publikacija "25 godina Hrvatskog vojnog učiliÅ”ta Dr. Franjo Tuđman" zbornik je radova tema i izlaganja pripremljenih za Okrugli stol na HVU-u održan 11. svibnja 2016. godine
    corecore